智能论文笔记

TargetCall: Eliminating the Wasted Computation in Basecalling via Pre-Basecalling Filtering

Meryem Banu Cavlak , Gagandeep Singh , Mohammed Alser , Can Firtina , Joël Lindegger , Mohammad Sadrosadati , Nika Mansouri Ghiasi , Can Alkan , Onur Mutlu

分类：人工智能 | 机器学习

2022-12-09

Basecalling is an essential step in nanopore sequencing analysis where the raw signals of nanopore sequencers are converted into nucleotide sequences, i.e., reads. State-of-the-art basecallers employ complex deep learning models to achieve high basecalling accuracy. This makes basecalling computationally-inefficient and memory-hungry; bottlenecking the entire genome analysis pipeline. However, for many applications, the majority of reads do no match the reference genome of interest (i.e., target reference) and thus are discarded in later steps in the genomics pipeline, wasting the basecalling computation. To overcome this issue, we propose TargetCall, the first fast and widely-applicable pre-basecalling filter to eliminate the wasted computation in basecalling. TargetCall's key idea is to discard reads that will not match the target reference (i.e., off-target reads) prior to basecalling. TargetCall consists of two main components: (1) LightCall, a lightweight neural network basecaller that produces noisy reads; and (2) Similarity Check, which labels each of these noisy reads as on-target or off-target by matching them to the target reference. TargetCall filters out all off-target reads before basecalling; and the highly-accurate but slow basecalling is performed only on the raw signals whose noisy reads are labeled as on-target. Our thorough experimental evaluations using both real and simulated data show that TargetCall 1) improves the end-to-end basecalling performance of the state-of-the-art basecaller by 3.31x while maintaining high (98.88%) sensitivity in keeping on-target reads, 2) maintains high accuracy in downstream analysis, 3) precisely filters out up to 94.71% of off-target reads, and 4) achieves better performance, sensitivity, and generality compared to prior works. We freely open-source TargetCall at https://github.com/CMU-SAFARI/TargetCall.

translated by 谷歌翻译

LEAPER: Modeling Cloud FPGA-based Systems via Transfer Learning

Gagandeep Singh , Dionysios Diamantopoulos , Juan Gómez-Luna , Sander Stuijk , Henk Corporaal , Onur Mutlu

分类：人工智能 | 机器学习

2022-08-22

基于机器学习的模型最近获得了吸引力，作为通过构建提供快速准确的性能预测的模型来克服FPGA下游实现过程的一种方式。但是，这些模型有两个主要局限性：（1）培训需要大量数据（从FPGA合成和实施报告中提取的功能），这是由于耗时的FPGA设计周期而具有成本范围的；（2）针对特定环境训练的模型无法预测新的未知环境。在云系统中，访问平台通常是昂贵的，ML模型的数据收集可以显着增加系统的总成本所有权（TCO）。为了克服这些限制，我们提出了Leaper，这是一种基于FPGA的基于转移学习的方法，可将现有的基于ML的模型适应新的，未知的环境，以提供快速准确的性能和资源利用预测。实验结果表明，当我们使用转移的模型进行5次学习的云环境中的预测并将设计空间探索时间从天数到几个小时，我们的方法平均提供了85％的精度。

translated by 谷歌翻译

Training Certifiably Robust Neural Networks Against Semantic Perturbations

Rem Yang , Jacob Laurel , Sasa Misailovic , Gagandeep Singh

分类：计算机视觉 | 机器学习

2022-07-22

语义图像扰动（例如缩放和旋转）已被证明很容易欺骗深神经网络（DNN）。因此，培训DNN对这些扰动有证明是鲁棒的，至关重要。但是，由于现有的确定性语义验证符非常缓慢，因此没有先前的工作能够将确定性语义鲁棒性的目标纳入训练程序。为了应对这些挑战，我们提出了认证的语义培训（CST），这是针对语义图像扰动的确定性认证鲁棒性的第一个培训框架。我们的框架利用了一种新颖的GPU优化验证器，与现有作品不同，它足以用于培训。我们的结果表明，与基于现有作品训练的网络相比，通过CST训练的网络始终达到更好的证明语义鲁棒性和清洁精度。

translated by 谷歌翻译

Learning Topological Interactions for Multi-Class Medical Image Segmentation

Saumya Gupta , Xiaoling Hu , James Kaan , Michael Jin , Mutshipay Mpoy , Katherine Chung , Gagandeep Singh , Mary Saltz , Tahsin Kurc , Joel Saltz

分类：计算机视觉

2022-07-20

深度学习方法为多级医学图像细分实现了令人印象深刻的表现。但是，它们的编码不同类别（例如遏制和排除）之间拓扑相互作用的能力受到限制。这些约束自然出现在生物医学图像中，对于提高分割质量至关重要。在本文中，我们介绍了一个新型的拓扑交互模块，将拓扑相互作用编码为深神经网络。该实施完全基于卷积，因此非常有效。这使我们有能力将约束结合到端到端培训中，并丰富神经网络的功能表示。该方法的功效在不同类型的相互作用上得到了验证。我们还证明了该方法在2D和3D设置以及跨越CT和超声之类的不同模式中的专有和公共挑战数据集上的普遍性。代码可在以下网址找到：https：//github.com/topoxlab/topointeraction

translated by 谷歌翻译

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System

Juan Gómez-Luna , Yuxin Guo , Sylvan Brocard , Julien Legriel , Remy Cimadomo , Geraldo F. Oliveira , Gagandeep Singh , Onur Mutlu

分类：人工智能 | 机器学习

2022-07-16

训练机学习（ML）算法是一个计算密集型过程，由于反复访问大型培训数据集，经常会陷入内存。结果，以处理器为中心的系统（例如CPU，GPU）遭受了内存单元和处理单元之间的昂贵数据移动，这会消耗大量的能量和执行周期。以内存为中心的计算系统，即具有内存（PIM）功能，可以减轻此数据运动瓶颈。我们的目标是了解现代通用PIM体系结构加速ML培训的潜力。为此，我们（1）在现实世界通用PIM体系结构上实现了几种代表性的经典ML算法（即线性回归，逻辑回归，决策树，K-均值聚类），（2）严格评估并表征它们在准确性，性能和缩放方面以及（3）与CPU和GPU上的对应物实现相比。我们对具有2500多个PIM核心的真实内存计算系统的评估表明，当PIM硬件在必要的操作和数据类型上，通用PIM架构可以极大地加速内存的ML工作负载。例如，我们对决策树的PIM实施比8核Intel Xeon上的最先进的CPU版本$ 27 \ times $ $，并且比最先进的GPU快$ 1.34 \ times $ $ NVIDIA A100上的版本。我们在PIM上的K-Means聚类分别为$ 2.8 \ times $和$ 3.2 \ times $ $，分别是最先进的CPU和GPU版本。据我们所知，我们的工作是第一个评估现实世界中PIM架构的ML培训的工作。我们以关键的观察，外卖和建议结束，可以激发ML工作负载的用户，PIM架构的程序员以及未来以内存计算系统的硬件设计师和架构师。

translated by 谷歌翻译

Robust Universal Adversarial Perturbations

Changming Xu , Gagandeep Singh

分类：机器学习

2022-06-22

通用的对抗扰动（UAP）是不可察觉的，图像敏捷的矢量，引起深度神经网络（DNNS），从而从具有很高概率的数据分布中误分类输入。现有方法不会为转换创造强大的UAPS，从而将其适用性限制为现实世界攻击。在这项工作中，我们介绍了一个新的概念和强大的普遍对抗性扰动的表述。基于我们的公式，我们构建了一种小说，迭代算法，该算法利用了概率的鲁棒性界限来生成UAPS，以与通过组成任意亚差异性转换功能生成的转换产生鲁棒。我们对流行的CIFAR-10和ILSVRC 2012数据集进行了广泛的评估，该数据集测量了人类解剖性语义转换（例如旋转，对比变化等）在现实世界中常见的鲁棒性。我们的结果表明，我们生成的UAP比基线的UAP更强大。

translated by 谷歌翻译

Machine Learning Training on a Real Processing-in-Memory System

Juan Gómez-Luna , Yuxin Guo , Sylvan Brocard , Julien Legriel , Remy Cimadomo , Geraldo F. Oliveira , Gagandeep Singh , Onur Mutlu

分类：机器学习

2022-06-13

训练机学习算法是一个计算密集型过程，由于反复访问大型培训数据集，因此经常会限制内存。结果，以处理器为中心的系统（例如CPU，GPU）遭受了内存单元和处理单元之间的昂贵数据移动，这会消耗大量的能量和执行周期。以内存为中心的计算系统，即具有内存处理（PIM）功能的计算系统，可以减轻此数据运动瓶颈。我们的目标是了解现代通用PIM体系结构加速机器学习培训的潜力。为此，我们（1）将几种代表性的经典机器学习算法（即线性回归，逻辑回归，决策树，K-均值聚类）上实现在现实世界通用PIM架构上（2）以术语来表征它们与CPU和GPU上的同行实现相比，（3）将其准确性，性能和缩放率进行比较。我们对具有2500多个PIM核心的内存计算系统进行的实验评估表明，当PIM硬件在必要的操作和数据类型上，通用PIM体系结构可以极大地加速记忆的机器学习工作负载。据我们所知，我们的工作是第一个评估现实世界通用PIM体系结构的机器学习算法培训的工作。

translated by 谷歌翻译

Scalable Verification of GNN-based Job Schedulers

Haoze Wu , Clark Barrett , Mahmood Sharif , Nina Narodytska , Gagandeep Singh

分类：人工智能

2022-03-07

最近，图形神经网络（GNN）已应用于群集上的调整工作，比手工制作的启发式方法更好地表现了。尽管表现令人印象深刻，但仍然担心这些基于GNN的工作调度程序是否满足用户对其他重要属性的期望，例如防止策略，共享激励和稳定性。在这项工作中，我们考虑对基于GNN的工作调度程序的正式验证。我们解决了几个特定领域的挑战，例如网络，这些挑战比验证图像和NLP分类器时遇到的更深层和规格更丰富。我们开发了拉斯维加斯，这是基于精心设计的算法，将这些调度程序的单步和多步属性验证的第一个通用框架，它们结合了抽象，改进，求解器和证明传输。我们的实验结果表明，与以前的方法相比，维加斯在验证基于GNN的调度程序的重要特性时会达到显着加速。

translated by 谷歌翻译

Language Modelling via Learning to Rank

Arvid Frydenlund , Gagandeep Singh , Frank Rudzicz

分类：自然语言处理 | 机器学习

2021-10-13

我们将语言建模（LM）作为多标签结构化预测任务，通过重新构建培训，从单独预测单个地理词来排序一组可以继续给定的上下文的单词。为避免注释Top-$ K $等级，我们使用预先训练的LMS生成它们：GPT-2，BERT和Born-Eventical Models。这导致基于秩的知识蒸馏（KD）。我们还使用$ n $ -gram开发一种方法来创建非概率教师，而不是需要预先训练的LM等级。我们确认假设我们可以将LIGE视为排名任务，并且我们可以在不使用预先训练的LM的情况下进行。我们表明，基于秩的KD通常提高了困惑（PPL），而与基于Kullback-Leibler的KD相比，通常具有统计显着性。令人惊讶的是，鉴于该方法的简单性，$ n $ -grams充当竞争教师，并实现类似伯特或出生的模型教师的类似表现。 GPT-2始终作为最好的教师，并使用它和Wiki-02上的变压器-XL学生，基于秩的KD从65.27到55.94减少了一个跨熵基线，并反对基于KL的KD为56.70。

translated by 谷歌翻译

Shared Certificates for Neural Network Verification

Marc Fischer , Christian Sprecher , Dimitar I. Dimitrov , Gagandeep Singh , Martin Vechev

分类：机器学习

2021-09-01

Existing neural network verifiers compute a proof that each input is handled correctly under a given perturbation by propagating a symbolic abstraction of reachable values at each layer. This process is repeated from scratch independently for each input (e.g., image) and perturbation (e.g., rotation), leading to an expensive overall proof effort when handling an entire dataset. In this work, we introduce a new method for reducing this verification cost without losing precision based on a key insight that abstractions obtained at intermediate layers for different inputs and perturbations can overlap or contain each other. Leveraging our insight, we introduce the general concept of shared certificates, enabling proof effort reuse across multiple inputs to reduce overall verification costs. We perform an extensive experimental evaluation to demonstrate the effectiveness of shared certificates in reducing the verification cost on a range of datasets and attack specifications on image classifiers including the popular patch and geometric perturbations. We release our implementation at https://github.com/eth-sri/proof-sharing.

translated by 谷歌翻译